AELE xt 


$865 35 58 19 HE. 2021 年 10 月 


ChinaXiv 合 作 期 刊 


多 基点 多 关系 的 混合 网 络 社团 划分 研究 综述 


EHH” 陈云 伟 ” 


!' 中 国 科 学 院 成 都 文献 情报 中 心 科学 计量 与 科技 评价 研究 中 心 (SERC) 


成 都 610041 


“中 国 科学 院 大 学 经 济 与 管理 学 院 图 书 情报 与 档案 管理 系 ”北京 100190 


摘 要 : [目的 /意义 ] 旨 在 对 多 节点 多 关系 混合 网 络 社团 划分 方法 进行 梳理 ,探析 现 有 社团 划分 方法 存在 的 问题 及 面临 的 
困难 ,预见 未 来 的 发 展 趋势 。[ 方法 /过程 ] 对 近年 来 有 关 多 节点 类 型 、 多 关系 类 型 混合 网 络 的 社团 划分 方法 研究 
工作 进行 系统 梳理 ,从 基于 概率 生成 模型 .元 路 径 、 种 子 节点 、 扩 展 模 块 度 以 及 混合 网 络 同 构 5 个 方面 对 划分 方法 
SEAT TRES. ,归纳 混合 网 络 社团 划分 常用 的 评估 指标 :标准 化 互信 息 NMI、 调 整 兰 德 指数 ARI 和 模块 度 Q, 指 出 社交 
媒体 、 学 术 网 络 、 欺 诈 检 测 3 个 应 用 场景 。[ 结果 /结论 ] 归纳 出 多 节点 多 关系 混合 网 络 社团 划分 方法 的 适用 性 及 


相关 研究 方向 。 
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优 缺点 ,揭示 了 当前 发 展 面临 的 挑战 ,为 后 续 的 混合 网 


络 分 析 研 究 提 供 新 的 视角 ,并 展望 今后 可 能 进一步 拓展 的 
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XGBIUME AREE .研究 基因 和 蛋白 质 之 间 相互 作用 
的 证 物 学 中 .研究 大 脑 结构 和 功能 的 神经 科学 "等 。 
已 查 研 究 发 现 ,整个 网 络 是 由 若干 个 “社团 "组 成 的 ， 
EP community) 也 称 为 集群 或 模块 ,是 具有 公共 属性 
或 答 网 络 中 具有 相同 角色 的 顶点 集 导 。 每 个 社团 内 部 
节 态 间 的 连接 相对 非常 紧密 ,但 是 各 个 社团 之 间 的 连 
ADIRA 。 识 别 网 络 的 社团 结构 不 仅 可 以 揭示 
节点 间 的 相似 性 ,还 可 以 揭示 社团 内 部 的 工作 原理 ,有 
助 于 理解 网 络 结构 特征 和 潜在 语义 信息 。 因 此 ,社团 
划分 被 认为 是 理解 和 分 析 网 络 的 一 个 基本 手段 ,可 
以 根据 已 观察 到 的 网 络 结构 信息 及 节点 的 属性 信息 来 
预测 网 络 的 社团 结构 ” ,并 将 密集 连接 的 节点 聚集 到 
社区 市 io 

目前 , 鲜 有 学 者 对 多 节点 多 关系 混合 网 络 的 社团 
划分 方法 进行 系统 的 梳理 归纳 ,大 多 是 对 同 构 网 络 的 
社团 划分 方法 进行 综述 呈 -” 。 李 辉 等 5 从 模块 度 优 
化 .标签 传播 .局 部 扩展 、 流 式 分 析 ,深度 学 习 方法 5 个 
方法 角度 对 复杂 网 络 中 的 社团 划分 方法 进行 综述 ,但 


其 讨论 的 方法 大 多 只 适用 于 单 节点 单 关系 的 网 络 ; 张 
瑞 红 等 “针对 单 节点 单 关 系 、 单 节点 多 关系 、 多 节点 
多 关系 混合 网 络 的 社团 划分 方法 分 别 进行 了 梳理 ,但 
其 仅 对 多 节点 多 关系 混合 网 络 的 部 分 社团 划分 方法 进 
行 梳理 ,归纳 不 够 全 面 . 不 成 体系 ,未 明确 指出 其 发 展 
历程 及 优 缺 点 。 因 此 ,本 文 聚焦 多 节点 多 关系 混合 网 
络 ,检索 国内 外 相关 文献 ,首先 明确 多 节点 类 型 多 关系 
类 型 混合 网 络 的 定义 ,并 与 其 他 网 络 进行 概念 辨析 ;其 
次 介绍 了 多 市 点 多 关系 混合 网 络 的 社团 划分 方法 与 主 
要 评价 指标 ,揭示 每 一 类 算法 的 发 展 过 程 \ 优 缺点 及 适 
用 性 ,以 期 让 相关 研究 人 员 对 该 领域 有 更 清晰 和 全 面 的 
认识 ,同时 为 社团 划分 算法 的 深入 研究 提供 理论 依据 ; 
最 后 阐述 了 其 应 用 场景 及 发 展 面临 的 困难 ,为 构建 一 个 
网 络 适用 性 强 、 复 杂 度 低 、 结 合 网 络 拓扑 结构 与 文本 信 
息 的 社团 划分 算法 提供 思路 ,对 今后 的 动态 网 络 社团 划 
分 方法 ,混合 网 络 标准 评估 指标 的 提出 作出 了 展望 。 


1 多 节点 类 型 .多 关系 类 型 混合 网 络 的 
REX. 


一 直 以 来 有 关 网 络 的 定义 层出不穷 , 现 将 各 网 络 


— 


* 本 文系 国家 社会 科学 基金 项 目 用 于 科学 结构 分 析 的 混合 网 络 的 社团 研究 "(项 目 编号 :19XTQ012 ) 研究 成 果 之 一 。 
作者 简介 : 蒋 璐 (ORCID : 0000 -0002 -5514 -9860) ,硕士 研究 生 ; 陈 云 伟 (ORCID : 0000 -0002 -6597 —7416) ) ,研究 员 ,硕士 生 导 师 , 通 讯 作 


者 ,E-mail:chenyw@clas. ac. cn。 


收 稿 日 期 :2021 -04 -06 修 回 日 期 :2021 -08 -02 本 文 起 止 页 码 :142 - 150 本文 责任 编辑 : 易 飞 


142 


dst. md. 多 节 


点 多 关系 的 混合 网 络 社团 划分 研究 综述 [J]. 


ChinaXiv 合 作 期 刊 
图 书 情报 工作 ,2021 ,65(19 ) :142 - 150. 


定义 表述 如 表 1 所 示 : 
表 1 各 网 络 的 定义 
具有 自 组 织 . 自 相似 、 吸 引子 、 小 世界 .无 标 度 
性 质 的 网 络 [15] 
规模 巨大 、 连 接 复杂 、 节 点 具有 异 构 性 的 网 络 1 
对 象 类 型 满足 1A1 >1 关系 类 型 1RI E 的 网 络 1"] 
与 异 构 网 络 对 应 , 仅 包含 一 种 节点 类 型 和 关系 类 型 的 网 络 118] 
含有 多 种 节点 类 型 或 多 种 关系 类 型 的 网 络 114 


复杂 网 络 和 超 网 络 两 者 所 指向 的 网 络 较为 宽泛 ， 
强调 的 是 一 种 呈现 高 度 复杂 性 的 网 络 , 并 未 对 网 络 的 
节点 和 关系 作 具 体 说 明 。 异 构 网 络 强调 的 是 网 络 拓扑 
结构 的 复杂 性 ,其 更 注重 异 构 关系 ,对 同类 型 对 象 之 间 
的 同 构 关系 关注 较 少 "” 。 同 构 网 络 仅 从 一 个 视角 反 
WE 方面 的 联系 ,在 研究 科学 结构 .识别 研究 前 沿 和 
乒 林 机 会 上 存在 局 限 ”” 。 混 合 网 络 本 质 上 属于 异 构 
的 范畴 ,强调 的 是 多 种 节点 与 多 种 关系 的 混合 , 充 
人 8 虑 了 异 构 关系 和 同 构 关系 ,体现 出 功 和 的 丰富 性 。 
城 汶 研究 采用 “混合 网 络 "定义 ,以 便 在 符合 真实 网 络 
的 请 况 下 ,将 研究 人 员 的 焦点 从 网 络 拓扑 结 者 构 的 构建 
IERE SI GE RHET E. 

人 多 节点 类 型 .多 关系 类 型 的 混合 网 络 即 是 指 包含 
多 秋 节 点 类 型 和 多 种 关系 类 型 的 网 络 , 其 特性 主要 表 
现在 以 下 两 个 方面 :@ 节 点 的 多 样 性 , 即 节点 类 型 多 ， 
俩 天 在 学 术 网 络 中 ,节点 可 以 为 作者 文献 关键 词 ,期 
他 迎 , 在 医疗 网 络 中 ,节点 可 以 为 医生 ,药品 .病人 等 ; 
@ 笑 系 的 丰富 性 ,在 学 术 网 络 中 ,关系 可 以 包含 作者 合 
作 父系 .作者 引用 关系 文献 引用 关系 .作者 与 文献 的 
隶属 关系 等 ,在 医疗 网 络 中 ,关系 可 以 包含 医生 开 药 关 
系 . 病 人 服药 关系 等 。 多 节点 多 关系 混合 网 络 能 从 多 
个 视角 整合 多 方面 的 关系 ,利用 网 络 中 多 类 型 节点 和 
链接 的 丰富 语义 ,从 相互 关联 的 数据 中 发 现 丰富 的 知 
识 ,捕获 真实 世界 中 最 根本 的 语义 信息 2 。 因 此 为 全 
面 地 了 解 某 个 领域 内 的 科学 结构 信息 ,深入 研究 多 节 
点 多 关系 混合 网 络 是 十 分 有 必要 的 。 


2 多 市 点 多 关系 混合 网 络 的 社团 划分 
方法 

由 于 学 者 们 对 多 节点 多 关系 混合 网 络 中 的 多 类 型 
节点 在 同一 网 络 中 的 配置 原则 、 多 类 型 关系 转换 成 数 
据 关联 规则 的 方法 ” .不同 关系 边 的 权重 方案 分 层 
网 络 不 同 层级 间 的 社团 划分 方法 均 尚未 达成 共识 , 直 
接 将 传统 的 同 构 网 络 社团 划分 方法 应 用 在 混合 网 络 中 


中 部 分 或 全 部 


同 构 网 络 


混合 网 络 


尚 存在 不 足 。 因 此 目前 对 多 节点 多 关系 混合 网 络 社团 
划分 方法 的 研究 多 集中 于 以 下 两 种 :一 种 是 扩展 现 有 
的 算法 来 直接 处 理 混合 网 络 , 另 一 种 是 将 混合 网 络 降 
维 为 同 构 网 络 再 进行 社团 划分 ” ” 。 基 于 以 上 两 种 
划分 思路 ,多 节点 多 关系 混合 网 络 的 社团 划分 方法 主 
要 有 以 下 5 种 类 型 : 
2.1 基于 概率 生成 模型 的 方法 

基于 概率 生成 模型 的 方法 包括 基于 排序 的 方法 和 
概率 统计 模型 方法 。 
2.1.1 基于 排序 的 方法 

在 基于 概率 生成 模型 的 方法 中 ,部 分 算法 将 排名 
问题 与 社团 划分 问题 相 结合 ,排名 与 社团 划分 是 相 辅 
相 成 的 :好 的 排名 增强 社团 划分 结果 ,好 的 社区 亦 能 改 
进 排名 ” 。RankClus ”是 最 早 提出 的 基于 混合 网 络 
的 排序 聚 类 算法 ,但 其 只 适用 于 两 种 类 型 的 节点 ;YY. 
Z.Sun 等 基于 RankClus 提出 了 一 种 新 的 算法 Net- 
Clus ^ ,利用 多 类 型 节点 之 间 的 链接 来 生成 高 质量 的 
网 络 集群 ,有 更 好 的 聚 类 效果 ,但 其 仅 适用 于 星 型 网 络 
结构 , 且 需 要 提前 知晓 在 数据 集中 具有 代表 性 的 对 象 。 
由 于 以 上 算法 均 没有 普 适 性 , M. 五 等 提出 Rank- 
Class'” 算法 ,使 其 适用 于 任意 网 络 模式 的 混合 网 络 ， 
且 可 充分 利用 任何 数据 对 象 的 标签 信息 ; 赵 焕 对 经 典 
的 NetClus 算法 进行 改进 ,提出 MAO-NetClus 算法 , 针 
对 Web 服务 .提供 商用 户 3 个 类 型 的 节点 及 其 之 间 
的 关系 ,实现 了 基于 多 节点 多 关系 混合 网 络 的 Web 服 
务 聚 类 ,设计 了 Web 服务 推荐 系统 原型 ” 。 此 外 ,为 
实现 动态 混合 网 络 的 社团 划分 ,揭示 每 种 类 型 节点 的 
演化 过 程 , M，Gupta 等 ”提出 EnetClus 算法 ,该 算法 
执行 一 种 演化 聚 类 ,使 用 时 间 平 滑 方法 显示 随时 间 变 
化 的 聚 类 ;C. H. Qiu 等 “提出 OcdRank 算法 ,支持 数 
据 增 量 更 新 , 且 时 间 复 杂 度 低 。 
2.1.2. 概率 统计 模型 方法 

由 于 基于 排序 的 方法 需要 提前 设置 好 社团 的 数 
H ,存在 不 稳定 性 ,为 此 ,学 者 们 提出 使 用 概率 统计 模 
型 进行 社团 划分 。 概 率 统计 模型 方法 即 指 利 用 贝 叶 其 
模型 先 验 概率 、 后 验 概率 等 方法 计算 节点 属于 社团 自 
概率 ,从 而 达到 划分 目的 。 了 陈毅” 提出 多 维度 贝 叶 其 
非 参 混合 模型 (MBNPM ) ,对 抓 取 到 的 每 一 维度 的 结构 
特征 进行 融合 ,利用 聚 类 模型 得 到 社团 信息 ,该 方法 能 
够 自动 探索 网 络 的 社团 数目 并 取得 较 优 的 社团 划分 效 
果 。 上 笑 浩 潇 等 基于 混合 网 络 的 信息 维 统计 量 提出 Dir- 
Com 方法 ,对 混合 网 络 进行 信息 维 上 卷 后 ,学 习 信 息 维 
的 狄 利克 雷 分 布 参数 来 表征 某 个 社区 ,利用 最 大 后 验 


cr 


143 


图 天 情报 三 作 


第 65 卷 第 19 期 2021 年 10 月 


ChinaXiv 合 作 期 刊 


1 4 VJ 


概率 实现 社团 划分 5 。S，Sengupta fü Y. Chen 提出 
了 针对 随机 块 模型 的 混合 网 络 谱 聚 类 方法 ,应 用 了 适 
用 于 大 型 网 络 的 用 于 后 验 推 理 的 变 分 EM 算法 ,人 允许 
不 同类 型 的 节点 拥有 多 个 成 员 关系 551 ,但 该 算法 未 解 
决 重 全 社区 问题 。 

这 些 算法 的 研究 对 象 只 限 包含 异 构 关系 的 混合 网 
络 , 但 实际 网 络 关系 较为 复杂 ,不 仅 包含 不 同类 型 节点 
间 的 异 构 关系 ,也 包含 同类 型 节点 间 的 同 构 关系 。 针 
对 这 种 网 络 , 童 浩 等 基于 RankClus 算法 将 排名 聚 类 方 
法 与 协同 聚 类 方法 相 结合 提出 RankCoClus 算法 ,选取 
论文 .作者 .术语 .会 议 4 种 节点 及 会 议 -作者 ,作者 - 
作者 2 种 关系 ,实验 证 明 其 有 效 性 ” 。R. Wang 等 提 
出 ComClus 算法 ,该 算法 采用 带 自 循环 的 星 型 模式 来 
纺织 混合 网 络 , 并 使 用 概率 模型 来 表示 对 象 的 生成 概 
S» ,实验 表明 ,该 方法 的 聚 类 效果 更 优 。 
| 达 从 以 上 分 析 可 见 , 基 于 排序 的 方法 虽然 时 间 复 杂 
度 柳 低 , 可 以 实现 动态 网 络 的 社团 划分 ,但 其 需要 根据 
先 殴 知识 指定 社团 数目 , 当 网 络 规模 较 大 时 ,很 难 准确 
地 过 行 预测 ,从 而 导致 结果 的 不 稳定 性 。 概 率 统计 模 
lik Ada 3 Af e RA ,稳定 性 较 强 ,适用 于 大 型 网 络 
团 划分 ,但 未 解决 重 春 社区 问题 。 

CD 基于 元 路 径 的 方法 

“3 多 种 类 型 的 节点 由 多 条 链 路 连接 而 成 ,连接 不 同 

5 宣 的 链 路 都 草 含 着 不 同 的 语义 ,这 样 的 链 路 形成 元 
3] 。 元 路 径 是 一 种 有 效 的 语义 捕获 工具 ,可 以 捕 


f 


BORA SUA VAI 4E RE UR SU o 7 ,是 混合 网 络 的 独 


特 特征 ,也 是 一 种 特征 提取 方法 “。 因 此 ,在 多 节点 
多 约 系 混合 网 络 中 ,基于 元 路 径 的 社团 划分 方法 相继 
涌现 。 

PathSim "是 最 早 提出 的 基于 元 路 径 的 算法 ,该 算 
法 针对 同 构 网 络 提出 ,对 于 度量 相同 类 型 节点 间 的 相 
似 度 表现 较 好 。J. Li 等 指出 ,大 多 数 基 于 元 路 径 的 混 


提出 了 一 种 基于 给 定 元 路 径 和 反 向 元 路 径 的 双 随机 游 
走 过 程 来 计算 两 个 对 象 的 相似 性 算法 一 一 AvgSim , 其 
能 够 在 大 规模 网 络 中 应 用 , 且 聚 类 效果 佳 。 

不 同 的 元 路 径 包 含 的 信息 不 同 ,选择 不 同 的 元 路 
径 会 导致 不 同 的 社团 划分 结果 ,如 何在 多 条 元 路 径 中 
确定 选取 的 元 路 径 条 数 或 者 最 优 元 路 径 是 一 难题 。 
Y. Z. Sun 等 "5 提出 PathSelClus 算法 , 它 能 够 为 混合 网 
络 中 不 同 元 路 径 分 配 不 同 的 权重 。 吴 瑶 等 提出 一 种 多 
元 图 融合 的 混合 网 络 散 入 方法 ,可 以 自动 学 习 网 络 中 
的 关键 元 路 径 ”。C.，Shi'" 等 引入 基于 元 路 径 的 随 
机 游 走 方法 HRank 来 评估 节点 和 元 路 径 的 重要 性 , 实 
验 结果 显示 了 元 路 径 的 独特 优势 。 

从 以 上 分 析 可 见 ,混合 网 络 中 基于 元 路 径 的 社团 
划分 方法 大 多 是 由 同 构 网 络 PathSim 方法 改进 得 来 。 
基于 元 路 径 的 方法 较为 简便 易 懂 , 多 条 元 路 径 能 够 捕 
获 到 混合 网 络 中 的 丰富 信息 ,但 其 算法 复杂 度 较 高 ,得 
到 的 相似 度 通常 是 一 个 偏差 度量 “” ,对 大 规模 网 络 的 
适用 性 较 差 。 此 外 ,不 同 的 元 路 径 包含 的 信息 不 同 ,如 
何 准确 地 计算 节点 之 间 的 相似 度 以 展现 出 丰富 的 语义 
关联 关系 、 如 何在 多 条 元 路 径 中 选择 最 优 的 元 路 径 从 
而 获得 最 优 划 分 效果 仍然 是 难题 。 

2.3 ”基于 种 子 节点 的 方法 

以 种 子 为 中 心 的 方法 成 为 了 社团 划分 算法 的 一 种 
新 兴 趋 势 ”” ,基于 种 子 节点 的 方法 的 基本 思想 是 
网 络 中 的 某 些 特定 节点 , 称 为 种 子 节点 ,再 围绕 这 些 节 
点 构建 社区 |。 

Z. Yakoubi 等 首先 提出 种 子 节点 驱动 的 社团 划分 
算法 Licod, 其 基本 思想 是 选择 比 大 多 数 直 接 邻 居 具 有 
更 高 中 心性 的 节点 作为 种 子 节点 ,围绕 这 些 节点 进行 
本 地 社团 计算 ,再 从 本 地 社团 集合 中 进行 划分 所 ,但 
该 方法 只 适用 于 同 构 网 络 。M.， Hmimida 等 “将 Licod 
算法 扩展 到 混合 网 络 中 , 称 为 mux-Licod ,该 方法 考虑 


合 网 络 社团 划分 方法 存在 两 个 问题 :四 由 元 路 径直 接 
获得 的 相似 度 通常 是 一 个 偏差 度量 ;@ 四 如 何 对 不 同 元 
路 径 的 相似 性 进行 融合 。 为 此 ,他 们 基于 PathSim 
的 标准 化 来 消除 相似 性 偏差 ,设计 了 一 种 灵活 的 融合 
机 制 来 动态 优化 结果 ,使 社团 划分 结果 更 优 。C. Shi 
等 基于 元 路 径 提 出 一 种 可 以 度量 相同 或 不 同类 型 
节点 的 相似 性 算法 一 一 HeteSim, 该 算法 通过 双向 随机 
游 走 来 计算 相似 性 ,在 查询 和 聚 类 任务 中 表现 优 于 传 
统 算法 ,但 是 HeteSim 只 适用 于 单条 元 路 径 环 境 下 ,不 
能 够 捕获 混合 网 络 中 的 多 种 语义 信息 , 且 该 算法 复 


了 混合 网 络 不 同 层 节点 之 间 的 不 同类 型 关系 ,实验 结 
果 表 明 该 方法 具有 较 好 的 实用 性 。 薛 维 佳 提出 基于 种 
子 节点 聚 类 的 社团 划分 算法 NS-Clus ,根据 节点 重要 度 
以 及 二 阶 邻居 选取 种 子 节点 ,随后 通过 相似 性 度量 对 
种 子 节点 进行 初始 社团 划分 ,并 利用 节点 隶属 于 社团 
的 概率 将 非 种 子 节 点 加 入 到 社团 中 ,得 到 最 终 划 分 结 
果 , 在 DBLP 数据 集 以 及 ACM 数据 集 上 的 测试 结果 表 
明了 该 算法 的 有 效 性 局) 。 

基于 种 子 节点 的 方法 是 一 种 局 部 计算 方法 ,该 方 
法 便于 理解 ,适合 处 理 大 规模 网 络 和 动态 网 络 ” dH 


杂 度 高 ,不 适合 大 规模 网 络 。 随 后 ,X. F. Meng 等 “ 


是 如 何 高 效 地 选择 有 效 的 种 子 节 点 仍 未 达成 共识 ,并 
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且 在 对 非 种 子 节点 社团 进行 合并 时 ,会 出 现 大 社区 合 
并 过 度 小 社区 数量 过 多 的 问题 。 
2.4 ”扩展 模块 度 算法 

模块 度 最 先是 用 于 评价 社团 划分 结果 的 指标 , 随 
着 研究 的 深入 ,出 现 了 基于 模块 度 的 社团 划分 算 
pk? 57 ,扩展 模块 度 算法 即 是 将 适用 于 同 构 网 络 的 
模块 度 算法 扩展 到 混合 网 络 中 。 

M. E. J. Newman 等 最 先 提 出 模块 度 优化 算法 FN, 
该 方法 将 每 个 节点 看 作 一 个 社团 ,计算 两 两 社团 结合 
后 的 模块 度 值 ,采取 模块 度 值 增加 最 大 或 减少 最 小 的 
社团 结合 方式 ,迭代 直至 模块 度 不 再 增加 完成 社团 划 
分 ,但 只 适用 于 单 节点 类 型 的 网 络 。R.，Guimera 等 
提出 了 适用 于 二 分 网 络 的 扩展 模块 度 算法 ,该 算法 能 
够 独立 地 识别 具有 相似 输出 连接 的 节点 和 具有 相似 输 
A E 的 节点 5 ,但 其 不 具有 善 适 性 。T，Murata 
AE. 提出 了 适用 于 k 核 网 络 的 模块 度 算法 ,该 算法 存 
生生 版 模块 度 算法 都 存在 的 分 状 率 限制 问题 , 且 不 适 
后 一 般 形 态 的 混合 网 络 。X.Liu 等 ”提出 复合 模 
块 麻 方 法 ,其 核心 思想 是 将 混合 网 络 分 解 为 多 个 子 网 
络 = 对 每 个 子 网 络 中 的 模块 度 进行 集成 ,基于 Louvain 
镍 加 优化 复合 模块 度 ,实现 社团 划分 ,该 方法 不 需 先 验 
有 及 ,上 且 适 用 于 大 规模 网 络 与 一 般 形 态 网 络 。 
Clun ir kit RISK) 

车 而 来 ,稳定 性 较 高 ,适用 于 大 规模 网 络 ;但 其 网 络 
a 分 
EEBU ERRARE PER” 


E Rena AY EROR TUN 
混合 网 络 降 维 成 同 构 网 络 ,再 使 用 同 构 网 络 社团 划分 
方法 进行 划分 。 降 维 方法 主要 有 非 负 和 矩阵 分 解 
(NMF) “主题 模型 ” 、 主 成 分 分 析 (PCA) ^ 线性 
判别 分 析 (LDA) ”等 。 

2.5.1 非 负 和 矩阵 分 解 方法 

3E fA XB I AT HEDT E AI TE X £86 4E B) — 7 HE fA 0B 

阵 | ERE I f Jy PRA ME f AE I, 43 90) 2 EAR EA A 
TIORER SRI ROEE RRE IRE EKME S. Ta- 
favogh 提出 一 种 基于 矩阵 分 解 和 语义 路 径 的 混合 网 络 
社团 划分 方法 '” ,实验 表明 其 有 效 性 。X. C. Zhang 提 
出 了 一 种 非 负 和 抢 阵 三 因子 分 解 方法 HMFClus ,利用 相 
似 性 正则 化 将 同类 型 对 象 之 间 的 信息 集成 到 HMFClus 
中 ,该 方法 可 以 同时 对 混合 网 络 中 所 有 类 型 的 对 象 进 
行 聚 类 '“ 。 黄 瑞 阳 等 利用 多 关系 相似 度 抢 阵 融 合 动 
态 混合 网 络 中 的 信息 ,结合 非 负 矩阵 分 解 模型 发 现 网 


络 中 的 社团 结构 ,该 算法 在 社团 划分 上 有 效 , 但 复杂 度 
E, J. Lu 等 针对 多 层 属性 网 络 , 从 矩阵 分 解 的 角 
度 提出 了 一 种 惩罚 替代 因子 分 解 (PAF ) 算法 来 解决 相 
应 的 优化 问题 ,PAF 算法 不 仅 社 团 划 分 效果 好 , 且 对 网 
络 形态 的 适用 性 强 ' ”| 
2.5.2 主题 模型 方法 

引入 主题 模型 ， 可 以 挖 据 出 文本 信息 \ 中 隐藏 的 主 
题 信息 以 提高 社团 划分 的 效果 '“ Q. Z. Mei 等 充分 
利用 统计 主题 模型 和 离散 正则 化 的 优点 ,通过 正则 化 


改进 主题 模型 ,实现 社团 划分 。 王 婷 提出 基于 主题 
感知 的 LDA-light 算法 ,将 混合 网 络 降 维 成 同 构 网 络 或 


者 二 分 网 络 , 利 用 标签 传播 方法 进行 社团 划分 ,该 方法 
划分 出 来 的 社团 带 有 语义 信息 , 且 普 适 性 强 ,可 以 推广 
应 用 到 实际 场景 中 |。 
2.5.3. 主 成 分 分 析 (PCA) 与 线性 判别 分 析 (LDA ) 法 

这 两 种 方法 均 属于 线性 降 维 方法 ,使 用 线性 投影 
的 方法 将 高 维度 数据 映射 到 低 维 空间 ,其 不 同 点 在 于 
前 者 确保 降 维 后 的 数据 保留 较 多 的 原始 信息 ,后 者 是 
使 降 维 后 的 数据 更 易 被 区 分 ”"。 现 有 研究 只 将 这 两 
种 方法 用 于 单 节点 类 型 的 网 络 中 ”或 二 分 网 络 
m, 

混合 网 络 同 构 方 法 虽然 便于 理解 ,但 将 混合 网 络 
降 维 成 同 构 网 络 的 过 程 复杂 , 易 造 成 信息 失真 。 非 负 
矩阵 分 解 方法 的 网 络 适 用 性 强 , 但 实现 复杂 度 过 高 ; 主 
题 模型 方法 利用 语义 信息 进行 社团 划分 ,其 结果 更 加 
可 靠 , 且 善 适 性 较 强 ; 主 成 分 分 析 与 线性 判别 分 析 方 法 
的 网 络 适用 性 较 差 。 

现 如 今 越 来 越 多 的 研究 不 局 限于 一 种 社团 划分 方 
法 ,多 种 方法 的 融合 会 使 得 社团 划分 效果 更 优 。 高 共 
婕 等 利用 基于 语义 的 元 路 径 模型 计算 节点 间 的 相似 
性 ,通过 最 小 化 目标 函数 值得 到 社团 划分 结果 '”"。 陈 
长 康 提 出 了 基于 元 路 径 计 算 相 似 性 的 标签 传播 算法 
( PathLPA ) 7 ,并 将 其 应 用 到 DBLP 混合 网 络 中 对 作 
者 节点 进行 社团 划分 ,取得 良好 划分 效果 。 张 正 林 提 
出 一 种 基于 元 路 径 抽取 与 种 子 社区 的 重合 社团 划分 算 
法 Hete_MESC ,用 户 根据 需求 选取 中 心 节点 ,从 网 络 中 
抽取 出 关于 中 心 节 点 的 多 路 网 络 后 对 其 进行 社团 划 
分 ,将 划分 结果 作为 种 子 社团 ,根据 其 他 类 型 节点 与 种 
子 社团 之 间 的 相似 度 最 终 实现 所 有 节点 的 社团 划 
4r? ,该 算法 适用 于 任何 形态 的 网 络 , 且 复杂 度 低 。 

综 上 所 述 , 现 有 的 针对 多 节点 多 关系 混合 网 络 的 
i ,基于 种 

节点 .扩展 模块 度 、 混 合 网 络 同 构 方法 仍 处 于 探索 阶 
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段 。 此 外 ,各 类 方法 仍 存在 不 少 问题 或 待 解决 ,可 见 对 
多 节点 多 关系 混合 网 络 社团 划分 方法 开展 进一步 研究 
还 有 很 大 空间 。 


3 ”社团 划分 效果 常用 的 评估 指标 


社团 划分 效果 的 评估 指标 有 很 多 种 ,对 于 不 同 的 
实验 需求 使 用 的 评估 指标 也 不 一 样 。 本 文 主要 介绍 在 
社团 划分 研究 领域 内 使 用 最 为 广泛 的 3 种 指标 :标准 
化 互信 息 NMIU 调整 兰 德 指数 ARIS 和 模块 度 
Q'* ,其 中 NMI,ARI 是 针对 已 知 真实 社团 划分 结果 的 
评估 指标 ,模块 度 Q 是 针对 不 知 真 实 社 团 划 分 结果 的 
评估 指标 ,其 对 比如 表 2 Bron: 

X2 3 种 社团 划分 评估 指标 对 比 
取 值 “” 值 与 社团 划分 


Y 是 否 已 知 真实 


标准 化 互信 息 (NMI) 是 一 种 在 信息 论 、 概 率 论 知 
识 基 础 上 产生 的 评估 社区 划分 结果 的 相似 性 度量 方 
法 ,通常 用 于 检测 真实 划分 结果 与 实际 划分 结果 之 
间 的 差异 ,可 以 直观 地 表现 出 社团 划分 结果 的 好 坏 。 
NMI 计算 公式 如 下 : 


-25 25 N; x log( 


Rios. 
Ni x Ni 


NMI = 
Zi, N, xlog (N) + Xf N, xlog ( 

式 (1) 

其 中 ,A 和 了 为 网 络 中 划分 出 来 的 结果 集 ,N 是 所 

有 节点 的 数量 ,C, .Cs 分 别 代表 ALB 中 社团 的 个 数 ， 

N, 表 示 两 个 社团 共有 节点 的 个 数 ,N,(N,) 为 N 中 第 i 

(j) 行 元 素 之 和 。NMI 取 值 范围 为 [0,1] , 值 越 大 说 明 


SERA 。 社团 划 分 结果 CERES 范围 ”结果 的 关系 | 社团 划分 越 准 确 。 
化 互信 息 NMI e 衡量 数据 分 布 间 [0.1] — ENDE ARI 从 广义 角度 来 讲 , 衡 量 的 是 两 个 数据 分 布 的 
下 的 差 Eh 
amaaa ax | 萄 合 程度 , 即 每 个 点 对 在 不 同 的 社团 划分 下 是 否 保持 
是 衡量 数据 分 布 间 的 [ -1,1] — 正 相 ; E BAD 
(0 WARE 一 致 来 比较 社团 划分 结果 与 真实 划分 的 相似 性 5 ,其 
E 衡量 社区 强度 ” [0,1]  ” 正 相关 定义 如 下 : 
(än + ao ) (a tay) 
a 
ARI=a XQ) 
E (aj tag) * Cay t aj) ML PC T 


2 


CN 


"其 中 ai 表示 在 真实 社团 划分 与 实际 社团 划分 中 
都 昼 于 同一 社团 的 点 对 数 ,aw 表示 在 真实 社团 划分 与 
实 辽 社 团 划分 中 都 不 属于 同一 社团 的 点 对 数 ,a 表示 


在 绽 实 社团 中 属于 同一 社团 而 在 实际 社团 划分 中 不 属 
手 司 一 社团 的 点 对 数 ,ao 表示 在 真实 社团 中 不 属于 同 
一 销 团 而 在 实际 社团 划分 中 属于 同一 社团 的 点 对 
数 ""。 其 取 值 范围 为 [ - 1,1] , 值 越 大 说 明 实 际 划分 
结果 与 真实 划分 结果 越 吻 合 , 与 NMI 相 比 ,ARI 有 更 高 
的 区 分 度 。 

RIRE Z Q 是 由 M. E. J Newman 和 M. Girvan 
提出 ,通过 优化 模块 度 Q 可 以 获得 更 优 的 社团 划分 结 
果 , 模 块 度 Q 可 以 使 社团 内 部 节点 的 联系 更 紧密 ,因此 
它 是 一 种 衡量 社区 强度 的 指标 ” ,其 定义 如 下 : 


Q5 X,[A,- 5| &(6,.6) A) 
其 中 ,i 和 j 是 任意 两 个 节点 ,kJ 分 别 为 节点 ij 


的 度 ,m 为 网 络 中 的 总 边 数 。 当 两 个 节点 直接 相连 时 
Ai =1 ,否则 为 0;C;、C; 分 别 为 节点 i\j 属于 的 社团 ,大 
两 节点 属于 同一 个 社团 , 则 6 =1 ,否则 为 0。 其 取 值 范 
HE] 7g [0,1] ,Q 值 越 大 说 明 划 分 的 社区 结构 越 稳定 , 效 
果 也 越 好 。 


标准 化 互信 息 NMI 调整 兰 德 指数 ARI 和 模块 度 
Q 是 评估 社团 划分 效果 最 常用 的 指标 ,但 其 对 多 节点 
多 关系 混合 网 络 的 评价 有 效 性 仍 有 待 系统 且 深 入 的 论 
证 。 在 混合 网 络 社团 划分 效果 的 评价 中 , 除 使 用 这 3 
种 评估 指标 外 ,部 分 学 者 使 用 自 定 义 的 指标 ,比如 利用 
论文 关键 词 相关 性 \ 论 文 主题 相关 性 \ 作 者 相关 性 评价 
社团 划分 的 效果 。 可 见 , 该 领域 仍 缺 乏 一 个 标准 统 
一 的 评估 指标 ,该 评估 指标 应 该 同时 考虑 同类 型 节点 
及 不 同类 型 节点 间 的 连接 强度 ,因此 构建 一 个 适用 于 
该 领域 的 社团 划分 效果 评估 指标 是 未 来 努力 的 方向 。 


4 ”多 节点 多 关系 混合 网 络 社团 划分 的 应 用 


多 节点 多 关系 混合 网 络 的 社团 划分 研究 不 仅 具 有 
理论 意义 ,在 实际 应 用 中 也 存在 着 可 行 性 和 有 效 性 。 
研究 者 们 将 社团 划分 方法 应 用 到 各 个 领域 来 发 现 社团 
结构 以 解决 实际 问题 。 本 文选 取 社交 媒体 、 学 术 网 络 、 
欺诈 检测 这 3 个 常用 领域 ,对 研究 者 们 在 各 领域 中 常 
的 社团 划分 方法 进行 阐述 。 

4.1 社交 媒体 

社交 媒体 网 络 的 迅速 发 展 使 得 其 节 


Cm 


点 众多 关系 
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错综复杂 ,对 其 进行 社团 划分 在 好 友 推荐 .与 情 监测 等 
方面 都 具有 现实 意义 ,并 且 可 以 从 网 络 层面 了 解 各 个 
社团 并 将 它们 与 现实 生活 相关 联 ""。 社 交 网 络 中 的 
一 个 关键 任务 就 是 推荐 系统 ,而 社团 划分 的 任务 就 是 
对 志同道合 的 人 进行 划分 。 概 率 生 成 模型 方法 是 基于 
社团 结构 的 推荐 系统 中 最 常用 的 方法 ,通过 识别 相似 
用 户 .根据 用 户 的 共同 特征 作 精 准 推荐 ,该 方法 可 以 优 
化 协同 过 滤 方法 存在 的 数据 过 载 .推荐 效率 低 等 问 
题 。 陈 毅 将 贝 叶 斯 非 参 混合 模型 BNPM 方法 应 用 到 好 
友 推 荐 中 号] ,与 传统 好 友 推荐 算法 相 比 取得 较 优 的 效 
果 , 同 时 提高 了 推荐 效率 。 
4.2 学术 网 络 
随 着 对 科学 结构 研究 的 逐渐 深入 ,构建 关于 作者 、 

贡献 .关键 词 等 节点 和 作者 合作 文献 引用 文献 关 刍 
Tjsit i EX mon 网 络 ,并 进行 社团 划分 ,可 以 了 解 
更 爱 的 学 者 结构 信息 .展示 不 同 角度 的 社团 结构 ,为 全 
VIE HIGHER RESP He ,科研 结构 , 某 一 学 科 的 发 展 
肪 驳 提 供 依据 ,这 也 成 为 学 术 网 络 研究 领域 的 一 个 
视 第 。 很 多 学 者 利用 概率 生成 模型 ,元 路 径 ,种子 节点 
JRE DBLP 学 术 文献 数据 集 上 应 用 他 们 提出 的 多 节 
战 条 关系 混合 网 络 社团 划分 算法 -2 ,以 验证 算法 
有 效 性 。 张 正 林 构 建 了 包含 论文 ,作者 关键 词 、 其 
刊 生 种 节点 以 及 论文 引用 、 论 文 - 作者 著作 论文 - 关 
Ub GLA .论文 -期 刊 发 表 4 种 关系 的 混合 网 络 ,基于 
稚 嚼 径 抽取 和 种 子 节点 的 方法 进行 社团 划分 后 ,对 比 
作客 社团 和 公文 社团 ,发 现 “论文 社团 规模 较 小 ,研究 
领域 单一 ;作者 社团 规模 较 大 ,研究 领域 分 散 " 的 特 
Era: 


«X 2 o 


4.3 


欺诈 检测 
上 炊 诈 检 测 在 电信 和 网络、 医疗 保健 等 现实 生活 中 有 
着 巨大 的 应 用 。 在 各 类 欺诈 检 测 中 , 均 涉 及 节点 众多 、 
数据 量 大 且 分 布 不 均 的 问题 ,传统 的 异常 检测 方法 很 
难 检测 出 异常 ,而 多 节点 多 关系 混合 网 络 的 社团 划分 
方法 在 有 效 简化 问题 的 同时 能 够 更 多 地 关注 节点 间 的 
关系 ,为 欺诈 检测 提供 了 新 的 方向 。 扩 展 模块 度 算 法 
是 该 场景 下 最 常 使 用 的 方法 ” , 栾 婷 婷 将 普通 住院 
数据 中 的 医生 和 药品 建 模 为 混合 加 权 网 络 ， 提出 模块 
度 优 化 算法 FNO 将 医生 和 药品 划分 到 相应 的 社区 ,最 
后 再 通过 医生 和 药品 社团 的 对 比 , 发 现 异常 医生 ,实现 


医疗 保险 领域 的 欺诈 问题 检测 ” 。 
5 讨论 与 展望 
本 文 围绕 多 节点 多 关系 混合 网 络 的 相关 方法 研 


究 ,梳理 了 其 社团 划分 方法 ,介绍 了 常用 的 社团 划分 评 
佑 指标 及 应 用 场景 。 目 前 对 混合 网 络 社团 划分 方法 的 
研究 还 处 于 起 步 阶 段 , 经 过 梳理 发 现 多 节点 多 关系 混 
合 网 络 的 社团 划分 方法 主要 有 基于 概率 生成 模型 基 
于 元 路 径 .基于 种 子 节 点 .扩展 模块 度 .混合 网 络 同 构 
等 ,本 文 对 比 了 各 类 方法 的 适用 性 和 特点 ,指出 构建 一 
个 网 络 适用 性 强 、 复 杂 度 低 、 同 时 结合 网 络 拓扑 结构 与 
文本 信息 的 社团 划分 算法 很 有 必要 。 现 如 今 常 用 的 标 
准 化 互信 息 NMI 调整 兰 德 指数 ARI 和 模块 度 Q 三 种 
社团 划分 效果 评估 指标 , 均 有 各 自 特点 及 适用 范围 ,但 
其 对 多 节点 多 关系 混合 网 络 的 社团 划分 效果 的 评价 有 
效 性 仍 有 待 系统 且 深 入 的 论证 ,提出 适用 于 该 领域 的 
统一 评估 指标 也 是 今后 的 研究 方向 之 一 。 

多 节点 多 关系 混合 网 络 打破 了 传统 同 构 网 络 的 单 
一 局 限 性 ,对 其 进行 分 析 可 以 挖掘 出 隐藏 的 丰富 信息 ， 
但 其 特性 使 得 社团 划分 算法 面临 了 不 少 挑战 :四 网 络 
具有 多 种 类 型 的 节点 与 关系 ,如 何 融合 多 层 网 络 合理 
有 效 地 利用 混合 网 络 中 的 拓扑 结构 信息 和 节点 属性 信 
息 是 面临 的 首要 问题 ;@ 网 络 规模 大 ,现实 网 络 节 
点 数量 众多 且 其 之 间 关 系 稀 玻 ,设计 出 一 个 适用 于 大 
规模 网 络 旦 划分 效果 好 的 算法 面临 更 大 的 困难 ;@ 存 
在 一 定量 的 无 连接 的 同类 型 节点 或 关系 ,不 利于 相似 
度 度 量 的 计算 ;名 目前 对 重合 社区 进行 识别 的 算法 并 
不 多 ,然而 在 实际 网 络 中 ,一 个 节点 很 有 可 能 同时 属于 
多 个 社区 ,需要 利用 有 效 的 算法 对 其 进行 区 分 。 这 些 
bruni 构 网 络 的 社团 划分 算法 十 分 具有 挑战 
VEU ,也 是 今后 研究 需要 解决 的 难题 。 

此 外 ,目前 多 节点 多 关系 混合 网 络 的 社团 划分 方 
法 在 社交 媒体 ,学术 网 络 .欺诈 检测 场景 下 的 应 用 大 多 
是 针对 静态 网 络 的 ,未 考虑 到 数据 集 的 变化 带 来 的 影 
响 ,在 未 来 研究 中 ， pian ice gains 
合 网 络 社团 划分 算法 ,以 深度 揭示 科学 结构 的 动态 
化 ,值得 进一步 研究 。 对 于 多 节点 多 关系 混合 en 
前 治 研究 不 仅 局 限于 社团 划分 上 ,还 有 链接 预测 .节点 
语义 搜索 等 任务 ,这 对 于 混合 网 络 的 研究 很 有 现 

意义 ,也 是 今后 混合 网 络 研究 的 方向 之 一 。 
Ex 
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Abstract: | Purpose/significance | By sorting out the community detection methods of multi-node and multi-re- 


lationship hybrid network , we can analyze the problems and difficulties existing in the community detection methods , 


and predict the development trend in the future. | Method/process | In this paper, the methods of multi-node type 


and multi-relation type hybrid network community detection were systematically reviewed, and were described from 


five aspects; based on probabilistic generation model, meta-path, seed node, expansion modularity and isomorphism 


of hybrid networks. This paper summarized the commonly used evaluation indicators for community detection in hy- 


brid networks; Standardized Mutual Information ( NMI) , Adjusted Rand Index( ARI) and Modularity Q, and pointed 


out three application scenarios of social media, academic network and fraud detection. | Result/conclusion | This 


paper summarizes the applicability, advantages and disadvantages of the community detection methods of multi-node 


and multi-relationship hybrid network, reveals the challenges faced by the current development, provides a new per- 


spective for the subsequent hybrid network analysis and research , and looks forward to the related research directions 


that may be further expanded in the future. 
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